网络首发 | 数智融合环境下AIGC的场景化应用与发展机遇(詹希旎 李白杨 孙建军)
网络首发时间
2023-03-19
网络首发地址
https://kns.cnki.net/kcms/detail/42.1085.G2.20230317.0847.004.html
詹希旎 李白杨
南京大学数据智能与交叉创新实验室,南京,210033
南京大学数字经济与管理学院,苏州,215011
孙建军
南京大学数据智能与交叉创新实验室,南京,210033
南京大学信息管理学院,南京,210023
目的 | 意义 | 人工智能生成内容(AIGC)正推动着虚实融生趋势下内容创作的范式转化,对数智融合环境中 AIGC 应用场景和发展机遇的探索有助于促进 AI 技术的高效赋能和内容生态的价值实现。 | |
研究设计 | 方法 | 着眼于 AIGC 的发展历程,从内容发展、概念类比和技术发展三个角度系统梳理 AIGC 的概念内涵。围绕生活场景、服务场景、文娱场景、科技场景和商业场景五大应用场景的自有特征,探析 AIGC 的交互形态和互动模式。 | |
结论 | 发现 | AIGC 的技术基础是数字科技的更新迭代,建构理念是创作空间的扩容增益,但其本质特征还是内容生态的创新发展。整体来看 AIGC 的发展机遇主要体现在基于群体智能的内容共生、基于数智融合的能力升维和基于增量市场的价值共创三个层面。 | |
创新 | 价值 | 随着底层技术和算法模型的突破性发展,AI 催生的内容蓝海正在从辅助协作和降本提效向智能创作和增值创造扩散,为数智逻辑下的内容生态带来了全新的创作思路。 | |
关键词 | 数智融合;人工智能生成内容(AIGC); 应用场景;内容共生;价值共创 |
1 引言 |
2023年初,一则“微软斥巨资收购ChatGPT”的新闻引爆互联网。作为现象级产品,由美国Open AI公司研发的带有交互功能的生成人工智能ChatGPT一经推出,仅用了两个月时间便刷新了互联网产品达到1亿月活用户的新纪录,也由此引发了人们对人工智能生成内容(AI-Generated Content, AIGC)的广泛关注。
事实上,人工智能生成内容的流行正是在数智融合的环境中,由于数字化内容的数量级和丰富度都大幅度增长,在内容方供需平衡的深度驱动下AI的创作能力得到了质的突破,由原来的限定式、模板化、特定范围的模仿改进升级为智能化、灵活性、多源多模态的内容生成。
从人工智能发展的角度来看,算法模型的更新迭代为快速增长的数字化内容注入了全新的动能,尤其是大语言模型(Large Language Model, LLM)的强力赋能使得AI自动化生成内容广泛服务于高通量、全方位、多领域的应用场景;元宇宙和Web3.0的概念化发展应用进一步激发了科技创新的活力,在数智融合的优势环境下为用户提供强社交属性、高沉浸代入、低延迟卡顿的感官体验。
由此可见,AIGC的发展潜力在“数据+智能+创造”的三轮驱动下逐步凸显,可以预见未来在“多源大数据+多模态统一大模型+超高速大算力”主流方式的推动下,各个领域将加速进入虚实融生的下一代互联网世界。
2 AIGC 的概念溯源与内涵 |
目前对于AIGC(AI-Generated Content,人工智能生成内容)概念的认知界定尚处于理解与探索阶段。而作为新型信息资源的生产和组织技术,有必要从信息资源管理视角对其进行学理剖析。
2.1 AIGC的概念溯源
理解AIGC应从概念本体、内容发展和技术革新三个角度进行考察。
从概念类比来看,与AIGC相似的概念包括生成式AI(Generative AI)和人工智能合成媒体(Synthetic media,又称AI-generated Media)。生成式AI主要指“利用机器学习等方法从现有数据(图像、音频、文本)中学习内容要素,生成与原始数据保持相似的内容”。人工智能合成媒体主要指“基于人工智能算法自动或人工生成、操作和修改数据和媒体,并生成相应的文字、图像、音频和视频”。AIGC与两者最大的区别点在于自主完成创新过程,包括基于关键策略线索的局部生成、基于多模态内容的底层理解和融合生成、基于综合或细分场景的特征生成。
从内容发展来看,AIGC是“继PGC(Professional Generated Content专业生成内容)和UGC(User Generated Content用户生产内容)之后,利用人工智能技术自动生成内容的新型生产方式,不仅会提升内容生产效率,也因人工智能模型对知识进行重新组合而创造出具有独特价值和独立视角的新内容”。
从技术革新来看,AIGC可以利用生成对抗网络(GAN)、扩散模型(Diffusion Model)、神经辐射场(NeRF)、自然语言处理模型(Transformer)等人工智能技术对规模化数据集进行训练、学习和优化,通过适当的泛化能力自动生成相关内容。其中“上游预训练大模型+下游任务微调”使得基石模型在具体应用场景中展现出良好的可适配性能,不断调整优化的算法技术使得AIGC的能力实现跨越式提升,可以将知识从大体量已标记或未标记的数据中有效提取出来,处理复杂任务的无监督机器学习已成为可能。
2.2 AIGC的数智化内涵
海量数据和智能化组织双驱动内容生产是AIGC区别于其他概念的基本特征。相较于高门槛、长周期和专业性的PGC以及高个性化、泛参与度和强交互性的UGC而言,AIGC放大了内容自动生成和AI自主学习的优势,突出了产能、产效、产量与内容质量的组合兼容,极大程度上克服了主观条件的干扰性与信息融合的局限性,具有内容多样化程度高、自主学习能力强、可操作范围广、生产效能显著等特有属性。特别是AIGC多模态学习技术和跨模态生成技术的不断突破,不仅实现了模态间的基础转换,还延伸出多个具有现实意义的高潜力场景。因此理解AIGC的数智化内涵可以从以下三个方面展开剖析。
首先是人工智能的技术性突破。随着元宇宙、NFT、区块链和web3.0等概念的新起,对抗性神经网络(GAN)、深度强化学习(DRL)、智能脑机交互(IBCI)和量子神经网络(QNNs)等技术的出现,新生代互联网逐步向自由、智能、开放、虚拟的网络服务高端化方向发展,对AIGC的方法探索和技术创新提出了更高的要求。
其次是生成能力的跨越式发展。在现有技术加持下,AI可生成的范围由听觉、视觉、触觉的局部感官体验向味觉、体感和智能脑机交互等全方位实时交互体验扩展;可生成的搭载模型由基于大体量、有监督学习的特定领域模型向基于小样本、无监督学习的轻量级大模型转化;可生成的内容由痕迹明显、效果一般的输出结果向满足多样化、精细化和个性化需求结果发展;可生成的应用场景由智能复刻和虚拟仿真朝面向2B、2C领域的细化场景、虚拟陪伴、超个性化实时互动的延展领域过渡。
最后是内容模态的多样化共生。主要包括自然语言处理领域(NLP)、文字识别领域(OCR)、计算机视觉领域(CV)等单模态内容的细节式捕捉;文本、图像、音频、视频、感官信息等多模态内容的智能性生成;合成语音、智能转译、动画渲染等跨模态内容的精准化转换。
2.3 场景化应用是AIGC的发展方向
数智融合环境赋予了AIGC更强大的智能计算能力、更广泛的数据语料资源、更通用的任务训练模型以及更灵活的信息参与模式,而最终的落脚点仍然是信息资源服务的场景化。如ChatGPT的流行,最初人们只是将其作为基本的文字互动工具,但随着场景化落地,基于ChatGPT的“一句话生成文字、表格、代码、图像、视频、3D模型”等场景很快得以实现,AIGC展现出网络内容生产力变革的潜力。如果说参考咨询是图书馆传统服务场景,那么ChatGPT就是包含全网信息资源的智能化咨询服务,这与图书情报的场景化服务有异曲同工之处。基于AIGC的技术特征和内容演进,面向场景化应用主要包括赋能、优化、拓展、强化、融合等几种模式。
随着底层技术和基石模型的持续突破,AIGC或将颠覆传统意义下内容的生成方式和业态复合,其不再局限于简单的模型训练和数据分析,而是转向技术驱动下内容生成逻辑及产出模式的模仿学习、需求定位下模型结构的性能优化和目标导向下生成内容的黏性互动,进而延伸出更加优势的内容生成能力和创新扩容能力,进一步推动了内容的智能化升级。
3 AIGC 的场景化应用 |
随着AI技术在深度学习(Deep Learning)、数字孪生(Digital Twin)、情绪识别(Emotion Recognition)、知识工作辅助(Knowledge Worker Aid)等领域的拓展应用,AIGC为内容创作带来了丰富的想象空间和独特的交互形态。特别是在文娱影视、电商零售、新闻传媒、教育医疗等数字智能化程度高、内容丰富化需求多的场景下具有较大的发展潜力和可观的经济价值效益。基于AIGC的技术特征和内容演进,面向场景化应用主要包括赋能、优化、拓展、强化、融合等几种模式。根据应用场景的自有特征和可交互内容大致可分为生活场景、服务场景、文娱场景、科技场景和商业场景五种类型,各场景围绕文本、影音、感官体验等多模态内容又产生了许多细分赛道,如图1所示。
图1 数智融合环境下 AIGC 的应用场景探析 |
3.1 AIGC赋能生活场景
AIGC技术逐步渗透至生活场景的各个角落,智能家居、智慧交通、智慧医疗、智慧教育、智能零售、虚拟社交等越来越多的行业领域可以看见AIGC赋能的场景。
3.1.1 AIGC+ 智能家居
AIGC技术的突破性发展为“万物智能”带来了新的内容生态,更为家居生活提供无限的“生命力”,为满足用户“所见即所得”和“所用即所需”的场景体验感,AIGC极大程度地支持了智慧产品的研发与产出。其中发展较为迅速的产品有用于家庭影院、语音助手、设备控制等场景的智能音箱;具备远程监查、防盗防窥、双向通话等功能的智能监控;提供居家陪护、安全监护、辅助管护、情绪疏导等服务的智能机器人;围绕智能运动、作息提醒、舒缓助眠、科学护眼等家庭健康生活的AI产品。例如三维家公司针对泛家居行业推出以“AIGC+场景营销+柔性智造”为底层基础的应用平台和“3D秀”智能导购工具,依托AIGC全流程设计、全自动生成、全方位可视等技术实现了前端智能化设计、用户个性化定制、厂端精细化生产的无缝衔接;同时与阿里、华为旗下智能家居平台的深度联动,打造了从单点互联到家居智造再到全屋智能的家庭空间。
3.1.2 AIGC+ 智慧交通
智慧交通是AIGC落地应用的主要生活场景之一,主要分为车载智能系统、智能决策系统、交通管理系统、交通调度系统四个子系统和诸多分支系统。AIGC的应用不仅激活了交通数据的潜在价值,也优化了道路交通的运行效率,还提高了用户的出行体验。例如AIGC通过智能传感器实时采集和分享多模态数据,以图像、语音等形式自动生成具体的道路信息、驾驶信息和安全信息,更加客观地呈现环境的动态变化,更具针对性地预测潜在交通风险并及时传送至相关人员并辅助决策判断。AIGC可以精准检测运载工具的安全情况、动态识别交通道路的流量情况、智能监控道路通行的管制情况、全面感知周边环境的变化情况,并自动生成满足最佳出行的导航信息;AIGC根据搜集到的交通大数据自动生成满足不同时间段流量需求的调度方案,并通过地图导航等提供的用户轨迹数据生成匹配的出行方案和路线建议。
3.2 AIGC 优化服务场景
AIGC技术可以看作未来服务业发展的核心增值部分,不仅为政府政务、个性服务、企业事务和消费业务等实际场景提供了丰富且多样的优质内容,还通过“使用者思维”和“在场体验”放大了服务市场的生产潜力。
3.2.1 AIGC+ 政务服务
数字化政务服务的易用性、灵活性和安全性是推进智慧政府建设的重要前提,而面向需求问题、面向服务对象和面向复杂场景的政务内容是实现体验在场、服务到位、管理有序的基本保障,AIGC技术的出现将智慧化政务服务和政务数字人提升至新的高度。例如开普云公司聚焦于数字化政务服务、全流程政务管理和灵活化新闻播报等应用场景,积极探索AI赋能下的智慧政务新场景和政府治理新模式。面对复杂的服务需求和特定的场景标准,开普云在AIGC的基础上运用细节捕捉、智能驱动和动态GC渲染等技术针对性地打造了集智能感知、图文共识、深度理解等功能于一体的政务型数字人和服务型机器人,它们不仅可以高效地完成智能问答、政策解读和多层次交互等工作,还提供了残障关怀、多终端适配,适老化代理和无障碍办理等服务内容,极大程度地提升了泛在可及、开放参与、公平普惠的用户体验,实现了内容模式的多维度创新和政务服务的多场景覆盖。
3.2.2 AIGC+ 个性服务
在数智融合的环境中,新工具、新应用和新场景的不断涌入,为个性化服务带来了更多的发展机遇,可操作的服务技术、可理解服务内容、可接受服务模式直接关系到用户对“AIGC+个性服务”的认可性和接纳度。具体而言可以细分为两类个性化服务场景:一类是AIGC服务于B端场景,例如AIGC根据特定领域的具体内容训练模型,针对上游市场设计下游任务,实现商品营销文案的智能生成和自动推送;通过文字、图像描述和预设的创作风格拓展生成初级的视频脚本或影视剧本;利用强化学习和扩散学习等技术生成视频配音、自动解说和声音克隆等内容,服务于有声读物、影视作品和动画制作等应用场景的前期开发、中期运营和后期完善。另一类是AIGC服务于C端场景,例如面向用户提供高质量的搜索交互式服务和闲聊对话式服务;通过语音识别、手语辅助和影音合成等功能帮助听障、视障、聋哑人士解决沟通问题,为心理障碍患者提供陪护解压服务。
3.3 AIGC 拓展文娱场景
AIGC在文娱场景的应用主要表现在内容创造消费和内容场域拓展两个方面。目前发展较为快速的赛道有Game、娱乐会展和新闻传媒。
3.3.1 AIGC+Game
目前发展较为成熟的互联网游戏和大量真人在线的交互场景为AIGC的持续性创作提供了极具潜力的研发平台,依托已有热门游戏平台和原创游戏IP打造更具沉浸式和互动式的泛娱乐发展,包括对抗类游戏的策略生成、养成类游戏的剧本推进、角色扮演类游戏的剧情设计等。例如2022年歌手TravisScott在网络射击游戏《FortressNight》(《堡垒之夜》)内举办了“虚拟演唱会”;网易旗下游戏《逆水寒》尝试在游戏中召开了国际人工智能学术会议DAI,实现了虚拟场景与现实活动的融合;日本企业在任天堂旗下现象级游戏《あつまれどうぶつの森》(《集合啦!动物森友会》)中借助游戏道具搭建“招聘会现场”,成功举办了一场招聘说明会;国内外高校在沙盒游戏《Minecraft》(《我的世界》)中还原了像素风格的虚拟校园,并举行了独特的云毕业典礼和毕业晚会等活动。开放融合的游戏环境引发了观众强烈的体验共鸣,创意的观感模式为用户带来了独特的“记忆点”。同样的游戏行业还可以借助NFT(非同质化代币)建立数字所有权,利用AIGC技术生成更多的体验内容,共同催生Game领域创作者经济。例如Cryptovoxels平台以像素风格界面为依托出售虚拟土地和其他NFT资源的数字资产,个人用户可以同步展览和出售所拥有的数字藏品或虚拟物品,社群用户也可以利用群体智能创作力打造平行且独立于现实世界而存在的社会场景和社交场地,设计个性化的“游戏人生”。
3.3.2 AIGC+ 娱乐会展
传统文娱场景重点突出“人—物—场”间真实的连接与交互,内容创作往往受制于外部因素和技术水平,且存在前期制作成本高、互动形式单一和创作者瓶颈等问题,但AIGC加持下的文娱场景打破了时空距离,将虚拟场景与真实环境相结合,带来了更加优越的用户体验。例如2022年9月26日,由百度虚拟数字人“度晓晓”全程参与制作的国内首档Web3.0全链路场景下的“百度元宇宙歌会”完美落幕,通过“AI+XR”全场景技术、“真人+虚拟数字人”的全身份组合、“在场感+空间感”数字化体验,呈现出一场集自动化内容生成、科技化艺术形式、现代化空间布景、真数化虚实结合于一体的沉浸式晚会,为用户带来了极具特色的感官体验。相比受限于时空距离和互动模式的传统演唱会形式,此次元宇宙歌会最大的创新点在于AIGC、虚拟数字人、数字藏品等多重跨界内容的参与设计,打开了硬核科技实力与强大生成能力交互创新的新可能。
3.4 AIGC 强化科技创新场景
人工智能与科技场景的深度融合既表现出AIGC作为生产要素的生长潜力,也凸显出AIGC作为生产工具的辅助作用。除了与生物、物理、化学等传统科学领域结合之外,AIGC在航空航天、新能源、海洋勘测等新科技场景下也生成了较为丰富的内容。
3.4.1 AIGC+ 航空航天
在航空航天领域,AIGC通过集成开发的底层技术优势对现有的知识图谱进行深度学习、对复杂系统进行融合建模、对地外数据进行关联分析与智能理解,共同助力深空环境的远地工作。例如在智能感知层面,AIGC可以根据图像、方位、距离、环境等反馈结果和AI模型的计算结果自主生成并调节航空航天探测器的运动轨迹,寻找动能设备支持下的最优路径,以期完成部分需要自动避障、自主避险、自行感知的智能化作业,提升面对未知风险的智能决策能力。在智能控制层面,AIGC可以对传回的数据信息和采集样本进行效果增强与智能检测,大大提高了内容分析的准确度;也可以将太空场景进行局部复刻,跨越时空距离完成相似环境下的任务模拟和实操练习;还可以利用数字人技术代替真人完成部分指令控制和科学探索。在智能建造层面,AIGC通过AI大脑和智能模型来支持太空基建工程,借助全模态通用大模型生成更加智能的探测器等。
3.4.2 AIGC+ 海洋探测
随着海洋领域科技场景的不断扩大,传统的工具和技术已经难以满足深海探测、特定海域任务和海洋资源利用等多样化工作。同样未知的海域环境也给“人+工具”初级探索模式带来了巨大的考验,因此需要更加契合的技术和内容来助力海洋领域的深层次探索。例如AIGC通过实时监测的气象信号、水质水样、洋流运动、遥感影像和生物多样性等海洋数据,自动生成可供参考的内容集来预测海洋指标的变化趋势或辅助决策的制定实施。AIGC可以利用视觉生成算法和影音合成技术自动化生成海域范围内的3D全景描绘内容,甚至能够根据现有数据推演创作出不同阶段、不同条件下的海洋形态演化内容。AIGC也可作为海洋智能机器人的支撑性技术,辅助其在复杂海洋环境中完成数据采集、精密测算、智能追踪和同步定位等水下干预任务。
3.5 AIGC融合商业场景
在消费者经济和体验经济的双重驱动下,AIGC颠覆了传统的内容生产模式,开拓了内容创造的可能性,在商业场景中发展较为亮眼的是电商直播和虚拟偶像。
3.5.1 AIGC+ 电商直播
随着消费市场内容的富集涌现,用户不再局限于简单的感官刺激和消费快感,而是转向带有更多附加元素、情感价值和交互体验的内容市场。在上游产品服务、中游数智供应链和下游用户群体三维共振的新格局下,借助AIGC技术实现电商直播等新业态的模式转型。例如京东云致力于推动数智供应链的产业场景落地,旗下言犀团队针对复杂的电商销售和直播服务场景,利用领域性大模型K-PLUG强化AIGC技术的自动生成和智能创造的能力,基于语音语义、听觉视觉、对话交互等多模态内容,融合语音合成、情绪判断、智能停顿、方言解析等多种智能技术开发出虚拟人主播――“灵小播”。其不仅具有丰富的电商销售经验,也能快速进入直播带货状态,还能达到7×24小时连续在岗直播、多场景无缝衔接、自主创作营销活动、智能直播实时交互等效果。“一站式”技术配置极大程度地提升了无人值守直播间的GMV转化率,丰富的问答交互增加了用户黏性和体验。
3.5.2 AIGC+ 虚拟偶像
虚拟偶像可以看作是在AIGC和IP价值的支持下独立进行偶像活动的虚拟人,拥有独特的风格设定和内容产出。区别于真人偶像的走红模式,虚拟偶像具有更强的塑造性和养成性,粉丝群体可以直接参与到虚拟偶像“出生—宣传—产出”培养的全过程中,现实世界中虚拟偶像的虚拟元素对标于受众的情感认知,而受众群体自我价值被肯定的过程中会产生巨大的粉丝经济。例如阿里妈妈推出“数字偶像共创计划”,在AIGC技术赋能下打造出首个由用户选择和养成的数字偶像锘亚Noah,全民制作人每一个决策都被赋予了实际意义,粉丝群体在虚拟偶像塑造过程中实现了“选择即存在”的强连接。同样的还有华纳旗下具有国潮、嘻哈人设的超写实虚拟音乐艺人“哈酱”,创壹科技团队创造的集科技、古风、魔幻创意于一体的现象级AI博主“柳夜熙”等。它们不仅以亲民偶像的身份为粉丝群体带来了全新的体验,还以数字人的角色传递了Web3.0时代的数智特色,更以虚拟的形象展现出科技与文化深度融合后的强大生产力。
4 数智融合环境下 AIGC 的发展机遇 |
在数智融合的环境下,深度把握数据要素的全周期、全流程、全方位活动,是激活数字内容潜能的基础支撑,也是内容市场实现增量发展的重要内驱力。但随着数据资源的多线并发、信息化程度的升维拓展和知识复杂指数的升级,难以单纯地依靠脑力劳动去细化分析,因此在不断精进算法模型的基础上,人工智能的智慧程度和感知能力得到了大幅度提升,AIGC迎来重要发展机遇。突出表现在基于群体智能的内容共生、基于数智融合的能力升维和基于增量市场的价值共创三个方面。
4.1 基于群体智能的内容共生
作为新一代流量入口,AIGC应用具有自组织群智涌现效应,能够使个体智力、数据语料、平台算法等链接在一起实现分布式群体智能:即AI利用通用算法模型,识别和组织大规模的需求、数据乃至传感器等特征和规则,形成新的知识涌现。AIGC为个体参与高效率、高质量的内容生成提供了工具辅助,为群体间知识的获取、流动和共享提供了平台,通过对多模态、多样化、多特质内容的学习可以实现领域知识和群体思维能力的突破创新。
对AIGC而言,具有复杂自适应性特征的智能群体推动了知识内容的富集涌现,随着技术水平的提高,内容的生成模式不再拘泥于简单的输入输出,而是向更加高级的智能形态进化。在“众创”理念的引领下,群体智能为内容生态提供了持续不断的创作动能,促进了知识的创新、互动、组合及增益,形成了协同与博弈共存的“众智空间”。
在数智融合的环境下基于群体智能的AIGC展现出内容共生的巨大优势,如图2所示,具体包括内容的多样性、内容的创造性、内容的组合性和内容的智能性。
图2 群体智能下 AIGC 的四大内容特质 |
4.1.1 内容的多样性
不同信息的来源方式和感知模式可以看作是一种独立的模态,按媒介传播的角度可以分为文字、图像、音频和视频等,但在数智融合的环境下,更多的模态信息可以借助合适的载体以一种可观察、可理解和可作用的效果呈现出来,包括听觉、嗅觉、触觉、脑电波,甚至是情绪波动和身体机能等。例如音频生成领域中实时配乐、旋律设计、语音克隆和助眠疏导等功能性音乐自动生成等个性场景;图像视频领域中AI换脸、遗迹修复、创意编辑和视觉定位等应用需求;文本生成领域中内容续写、新闻写作和对话交互等细分赛道。
4.1.2 内容的创造性
随着大数据在大模型中不断训练和强化,AIGC模式可能会带来更多的创新维度、创造空间和创作自由,从不同的角度激发和叠加创意认知,在特定训练条件下部分随机和全随机生成包括色彩、旋律和形状在内的想象艺术、特色风格、全新搭配和未知组合。例如继AI写作之后其在艺术领域带来的再一次冲击:AI绘画。在新一代图像生成主流模型Diffusion Model(扩散模型)的基础上叠加基于知识增强的无分类器引导和CLIP(Contrastive Language–Image Pre-training)引导,通过增加噪声破坏来寻找逆转恢复原貌的方法并展开多模态数据训练,短时间内利用文字描述或词群输入就可以生成诸多细粒度高渲染的或具有“超现实感”和“奇特幻感”的作品,达到了Text-to-Image(文字转图像)的新阶段,展示了AI的实际应用价值和商业可落地性。
4.1.3 内容的组合性
AIGC通过抽取、克隆、识别、对齐、理解和组合等方式对信息的语义纠缠问题进行拆分解析。首先利用多模态大模型进行多点并发训练,定位不同模态数据间的对应关系;然后通过原始数据映射、统一对齐语义空间、完成不同模态信息的理解;最后实现内容的跨模态组合,进而提高内容创新扩展的可能性,突破“人—场—物”与实景要素组合的局限性。例如在搜索引擎中利用文字描述搜索制作相关的图片或视频、配图字幕的实时生成、视觉问答系统和新闻标题摘要的自动化生成等都采纳了这种多模态内容组合的形式,实现了特定效果下的场景化应用。
4.1.4 内容的智能性
群体智能下的AI在“大体量数据‘喂食’+大模型算法升级+多模态内容学习”的作用下发展出了更加智能的AIGC,具有突出的分析、理解和泛化能力,推动了内容的富集涌现,并与多行业、多领域的特定场景进行尝试融合。特别是在以语言文本为主的NLP领域、以图像视频为主的CV领域和以交互应用为主的3D领域呈现出强大的内容生产力。例如由静态的图文内容生成动态的视频内容;危险实验、地底勘验、海洋侦测等具体场景下特定问题的策略生成;GameAI中脚本驱动、剧情设计、NPC智能交互和数字资产管理等。
4.2 基于数智融合的能力升维
随着算法模型持续性的迭代升级,AI技术推动着生成内容朝多模态信息融合、跨模态内容生成、智能化场景落地的方向快速发展,实现AIGC自发且适应的有机生长。具体的能力升维表现在内容解构—复现能力、内容编排—合成能力、内容创作—应用能力三个方面,如图3所示。
图3 AIGC 能力升维的三个方面 |
4.2.1 智能内容“解构—复现”能力
传统技术主要体现在独立式的记录、分类、储存、模仿和复刻,较难全方位地把握内容的解构深度和复现程度,降低了数字化内容的关联性、完整性和有效性。但AIGC技术的出现使得内容的数字化孪生得到了有效提升,特别是在内容的智能增强和模态转换两个维度呈现出良好的生长潜力。
(1)智能增强维度
在现实场景中,往往会出现因干扰因素造成的原始数据失真、失效和失准问题,因条件限制造成的捕捉不易、配置不足和储存不当问题,因内外环境造成的片段缺失、内容受损和杂质干扰等问题。AIGC通过自主学习和模型训练对原生场景下低质量的数据进行高精度转换,利用部分片段增强或完全自主增强等方式进行信息的干扰修复、缺失补充和三维重构,进而生成高质量的数字内容。
(2)模态转换维度
相比于智能增强技术,以内容感知、关联感知、情景感知为基础的多模态信息理解和转换生成了更加丰富多样的数字化内容。利用数字技术将物理空间与社会空间中的实体要素、属性要素、关系要素和体验要素进行解构分析,跨越模态间的语义鸿沟,统一表示多模态数据的内容特征,并通过虚拟环境下数字内容的模拟复刻与场景再现,完成内容要素的数字孪生,实现不同模态内容的同步、同频、同节奏的转换和交互。代表性训练模型有基于语音和唇形变化输出对应文本内容的AV-HuBERT,基于视觉、听觉输出文字的VX2Text,支持多模态组合输入和视觉编辑输出的PoEGAN,横跨CV(计算机视觉)、NLP(自然语言处理)和ASR(语音识别技术)三种模态处理的Data2vec等。
4.2.2 智能内容“编排—合成”能力
AIGC所呈现的巨大潜力反映了内容市场的无限可能,从功能性角度出发,智能内容的数字化编排可以分为内容理解能力和属性调控能力两个部分,数字化合成则分为多模态融合能力和跨模态生成能力。
(1)内容理解能力
语言、文字、图像、视频等内容作为媒介载体发挥着信息承载、传播和储存的作用,利用“AI技术+算法模型”对海量内容进行规模化训练、多轮次迭代和多元素学习,实现数字化内容的深度理解,并在此基础上进行编辑、修改和创新。例如文本生成场景下,AIGC通过强化上下文的前后呼应和理解承接能力、常识性知识和拓展性问题的嵌入能力、随机遮挡和概率推测后的填充能力,完成内容续写、小样本学习和文风迁移等工作。
(2)属性调控能力
在原始内容语义理解的基础上,根据使用对象的个性化需求或特定场景的具体化应用,对内容的属性特征进行编辑和调整,使其更加广泛且灵活地应用于各类任务中。例如图像生成领域中,2022年4月Open AI在一代模型原有生成功能的基础上推出了DALL•E2二代模型,可以根据简单的文字描述生成现实世界中尚未可知的叠加式照片(考拉灌篮、熊猫滑冰等);可以利用AIGC技术在原来的图片中填充或替换部分内容并呈现完美衔接的效果(遗迹修复、AI换脸等);可以基于属性元素、现实场景和特征表现,复刻修改并生成不同角度不同风格的内容(动漫插画、系列创作等)。
(3)多模态融合能力
现实世界中不同来源、不同形态、不同表现形式的信息往往具有多种组合的可能性,所形成的内容也存在不同模态下的语义纠缠问题。AIGC的兴起增强了多模态内容深度学习后的可理解性、可解释性和可处理性,极大程度上扩展了内容的创作空间。例如视觉内容描述领域中,AIGC通过图像合成、语音合成和肢体语言合成等技术实现了“经典回溯”“故人重现”和“古今同台”等效果;通过多模态内容融合完成了跨时空、跨场景、跨地域的搭配组合;通过街景和外围物的声音、图像和动态变化判断潜在的危险和情况实现了智慧交通和无人驾驶。
(4)跨模态生成能力
对于AIGC而言,要想以更加智能的方式了解和认识世界的全貌,不仅要理解多模态内容之间“耦合并行”的关系,更要以“体验串联”的方式解读现实社会中人类对跨模态内容的感知和转换。例如中科院自动化所和华为联合研发的“紫东•太初”通用大模型,开创性地完成了视觉、文本、语音等不同模态数据间的统一表征和转化生成,突出了“以音生图”“图音转文”和“看图说话”的功能性作用,实现了“一专一能”到“多专多能”的跨越式发展,克服了大模型“炼化”中存在的诸多长尾问题,极大程度地扩展了AIGC的泛化能力和应用场景。
4.2.3 智能内容“学习—创作”能力
AIGC所具有的显著特点便是自增长,基于自发驱动和自主学习的底层机制可以带来内容创作的可持续供给,成为内容生成的基本动力。按照技术进程和内容生产力的关系,智能内容“学习—创作”能力可以分为观察模仿、概念拓展和理解想象三个部分。
(1)基于观察模仿的创作
从技术进程层面来看,AIGC趋于从大体量“数据喂食”向小样本深度学习转化,通过观察、训练、学习输入内容的属性特征和元素搭配,在定向数据库和算法模型的辅助下输出带有较强模仿痕迹或既定框架的创作作品并付诸于实际应用。例如诗词文学、音乐旋律、棋法技艺、绘画艺术和食品厨艺等具有较多可模仿内容的部分。但对于较为复杂的场景和领域来说,AIGC模仿下的输出结果与真实内容还具有一定的差距,部分数字化内容在精度、搭配和逻辑等方面还存在较大的优化空间,还需要算据、算法、算力等技术要素的不断完善和强化升级来缩小模仿与真实之间的内容差距。
(2)基于概念拓展的创作
相较于观察模仿的内容生成,基于概念拓展的创作展现了更好的抽象性。摆脱了对特定内容观察模仿的正向思维模式,采用“数据学习+主题抽取+概念抽象+创新组合”的生成范式理解主体元素间动作、行为、关系和相互作用,将面向对象的描述性创作、面向关系的理解性创作和面向现实的逻辑性创作升级为面向概念的智能性创作。例如微软及北大共同研发的NÜWA(女娲)AI模型具有强大的推理优势和创作潜力,可以同时接受多种不同模态的输入内容及其子集产生的约束条件,通过对概念的抽象理解实现个体元素与整体环境的合理组合,创作出高分辨、高密度、高质量的图像结果,特别是在文字描述、图像视频编辑补全、草图填充生成、视频场景预测等视觉任务中表现突出。同样具有类似创作能力的还有NVIDIA推出的PoE GAN模型、DeepMind发布的Gato AI模型以及百度文心研发的ERNIE-ViLG 2.0跨模态大模型。
(3)基于理解想象的创作
与前两者相比较,基于理解想象的创作具有更强的智能性和理解能力。通过学习和抽取现实世界的具象内容,理解并总结其外在表征下的深层含义,挖掘主要内容及其构成元素所呈现的情感基调和属性特征,完成内容的自主设计和自动生成,实现自由组合下AIGC的创新应用。例如喜马拉雅作为AIGC领域音频赛道的专业级平台,利用较为成熟的TTS(Text-tospeech)技术为内容生产赋能,通过韵律提取、音色选取、情感保留等模块完美复现单田芳先生的声音腔调,并制作上线了相关专辑内容,极大程度地提高了作品的播放量与互动指数;同时也打造了原创TTS音色“喜晓峰”与真声合成音色“喜小道”应用于财经类专辑和音频电台的创作演播,不仅实现了内容的降本增速,还进一步升级了用户的内容消费体验。
4.3 基于增量市场的价值共创
AIGC可以代替人类完成素材收集、大体量学习、归纳分类等基础阶段的重复性劳动,在新技术的尝试、渗透和应用的基础上开拓新的业务内容,借助AI技术的强大动能和AIGC的创新能力来提高整体内容的生成质量,压缩内容创新的时间和成本,解决具体业务场景下存在的痛点、断点和难点。同时在存量市场价值保留的基础上拓展增量市场的内容创收和价值变现,最终实现价值共创,如图4所示主要分为以下三类场景。
图4 AIGC 增量市场的价值共创 |
4.3.1 面向 2B 领域业务场景的应用价值
在2B领域AIGC主要面向较为明确的业务内容和任务工作,更看重确切场景的应用落地。内容的可持续性创作需要依托具体的场景载体,载体的承接能力则需技术的辅助扩容,而算法模型加持下的AIGC可以在短时间内了解业务的覆盖场景和目标人群,并推出多样化且可供选择的数字内容,实现真正意义上的2B服务价值增益。特别是在具体的产业和商业背景下,更需要关注产品内容的可塑性、核心竞争的优势性、市场定位的准确性、商业模式的创新性和数字营销的优化性。例如AIGC服务于基础教育、远程办公、无人驾驶和餐饮娱乐等场景,对“AIGC+智慧医疗”而言,既可以通过对患者病情的透视建模和三维成像,提供用药医治的模拟操作来辅助医生做出更加精准的诊断治疗,也可以为患者提供个性化服务内容,配备虚拟“陪护助手”来满足不同类别用户所需的多样化服务需求。
4.3.2 面向 2C 领域消费场景的内容价值
在2C领域AIGC主要面向可覆盖的消费者和潜在人群,时代红利和创作风口为消费市场带来了广泛的内容生态,尤其对于“Z世代”和“α世代”这类属于数字时代的原居民而言,他们将逐步成长为未来消费市场的主导力量。由于新生代群体长期生活在数智融合的环境中,受智能设备和产品的影响较大,因此能够快速接受新鲜事物,更愿意在虚拟世界找寻圈层共鸣,更注重“悦己”准则下的情感式消费体验,也更可能为内容质量、文化情怀和精神满足而付费,同时也拥有着较强的创作能力和创新意愿。例如“AIGC+文创潮玩”,随着虚拟互动与现实社交的界限逐渐模糊,越来越多的用户倾向于通过消费数字化内容来疗愈现实情绪。AIGC助力国潮元素、饭圈文化、小众风潮、多人游戏和盲盒经济等内容的跨界融合,通过虚实融合的沉浸式体验、感官丰富的用户获得、创意刺激的内容设计吸引了大批消费者驻足,由此催生了内容庞大的消费市场。
5 结语 |
AIGC的出现可以看作是一种全新的创作方式,并非简单的AI辅助制作或AI分担工作,也不是场景化应用的局部突破或吸睛式创意的社交营销,而是人工智能在大模型技术的加持下,通过独立学习和大量训练对多模态内容进行理解认知并实现态势互通和元素组合。从目前技术发展和应用落地的情况来看,AIGC虽然处于起步阶段,离“规模化验证+轻量级搭载+模块化解构”的成体系发展还有一定的距离,却仍然具有广阔的发展前景和可预见的增值潜力,特别是在以下应用层面更值得深入探究:一是多源异构数据的模态元素理解,通过改变内容的析出形式和生产逻辑,实现创造性的配对组合;二是面对众多的细分场景,跨模态生成内容需要关注通用性输出、个性化推荐、富情感表述和细节性抽取等各个部分的处理;三是内容层面与场景层面的创新联动,推进综合性感官体验与高频率内容优化的深度交融,实现内容生态下的群体智能。
*参考文献略,请详见原文。 |
往期相关推文 网络首发 | 人工智能生成内容(AIGC)的技术特征与形态演进(李白杨 白云 詹希旎 李纲) |
END
版式设计
陆澜
制版编辑
卢慧质
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 21 世纪信息公平研究:脉络、结构与展望(樊振佳 史文杰)
网络首发 | ChatGPT为代表的大模型对信息资源管理的影响(陆伟 刘家伟 马永强 程齐凯)
网络首发 | 健康信息学的学科范畴、范式框架与关联路径研究(王若佳 李世娟 翟兴)
网络首发 | 数智时代的算法素养:内涵、范畴及未来展望(夏苏迪 邓胜利 付少雄 赵海平)
网络首发 | 以中国式现代化全面推进中国图书馆事业新发展——基于人口规模巨大的现代化的思考(王世伟)